Descoberta de ruído em páginas da web oculta através de uma abordagem de aprendizagem supervisionada

نویسندگان

  • João A. F. Lutz
  • Carlos Alberto Heuser
چکیده

Um dos problemas da extração de dados na web é a remoção de ruídos existentes nas páginas. Esta tarefa busca identi car todos os elementos não informativos em meio ao conteúdo, como por exemplo cabeçalhos, menus ou propagandas. A presença de ruídos pode prejudicar seriamente o desempenho de motores de busca e tarefas de mineração de dados na web. Este trabalho aborda o problema da descoberta de ruídos em páginas da web oculta, a parte da web que é acessível apenas através do preenchimento de formulários. No processamento da web oculta, a extração de dados geralmente é precedida por uma etapa de inserção de dados, na qual os formulários que dão acesso às páginas ocultas são automaticamente ou semi-automaticamente preenchidos. Durante esta fase, são coletados dados do domínio em questão, como os rótulos e valores dos campos. A proposta deste trabalho é agregar este tipo de dados com informações sintáticas dos elementos que compõem a página. É mostrado empiricamente que esta combinação atinge resultados melhores que uma abordagem baseada apenas em informações sintáticas.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Uma Abordagem para Armazenamento de Dados Semi-Estruturados em Bancos de Dados Relacionais

This paper presents an approach to storing semistructured data in relational databases. We focus on semistructured data as extracted from Web pages by a tool called DEByE (Data Extraction By Example), and organized according to its data model, the DEByE Object Model (DEByE-OM). The approach presented here consists in representing the structure of objects extracted by DEByE by a relational schem...

متن کامل

Definição e Avaliação de uma Abordagem para Extração e Catalogação de Conteúdo Obtido da Deep Web

This paper presents an approach for the extraction and labeling of data presented in Deep Web databases. Such a data are extracted from a set of HTML pages generated as the result of a query posed on the hidden database through a Web form. Data labeling (and persistence) aims at providing further structured queries over this hidden content. Preliminary experiments had demonstrated that the prop...

متن کامل

Um método para elicitação e Modelagem de Requisitos Baseado em Objetivos

Este trabalho propõe uma integração da abordagem CREWS L’ecritoire baseado em cenários com a abordagem de casos de usos descrita por Regnell et al e o Método GBRAM baseado em objetivos. Dessa forma são adicionados ao trabalho de Regnell et al a noção de pedaço de requerimento (RC), as estratégias de descoberta do objetivo através dos relacionamentos AND, OR e de refinamento entre RCs, além de e...

متن کامل

Ranqueamento Supervisionado de Autores em Redes de Colaboração Científica

The problem of ranking in collaboration networks consists in determining an ordering of researchers according to their in uence or prestige using network metrics. This paper proposes a supervised machine learning approach that combines four metrics to rank nodes. Experiments using a database of Brazilian researchers in Computer Science and taking as reference the Research Productivity scholarsh...

متن کامل

Filtragem Wavelet de Sinais Cardíacos através de Algoritmos Adaptativos

Resumo: Neste trabalho o algoritmo de Azzalini, Farge e Schneider, utilizado em análise de imagens, é modificado, produzindo uma versão adaptativa e uma recursiva para a filtragem de sinais cardíacos. Através destes algoritmos um limiar de corte é obtido baseado na variância do ruído e a série wavelet do sinal analisado é então truncada. Wavelets ortonormais de Daubechies são consideradas. Para...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2013